Eine Karte der Digital Humanities, auf der Artikel von Vortragenden an der DHD2020 besonders hervorgehoben worden sind. Jeder Punkt entspricht einem Artikel, ähnliche Artikel sind zusammen gruppiert. Die Karte hat eine rudimentäre Suchfunktion, damit kann man auch nach sich selber, oder nach Autoren die man kennt suchen.
Die Daten sind nach Reuters Web of Science-Datenbank gesampelt worden. Die Abfrage beinhaltet alle in Zeitschriften erschienenen Artikel aus dem Bereich Arts & Humanities welche im Titel, Abstract oder den Schlagwörtern die Zeichenfolgen ‘digit’ oder ‘comput’ enthielten, sowie die Artikel welche in einer Liste von Zeitschriften welche mit den Digital Humanities identifiziert werden könnnen vorkommen, welche ich einem interessanten Artikel von Tang, Cheng, and Chen (2017) entnommen habe:
Diese Anfrage resultierte Anfang Februar 2020 in 5,759 Treffern, deren bibliographische Daten ich heruntergeladen habe.
Diese Strategie der Stichprobenerstellung ist relativ breit angelegt. Das ist durchaus beabsichtigt, da für diese Karte keine scharfe Grenzziehung um die Digital Humanities (insofern eine solche überhaupt möglich oder wünschenswert ist) notwendig ist. Eventuelle Außreißer verteilen sich entweder als Hintergrundgeräusch über die Karte, oder werden, wenn es genügend von ihnen gibt, als kleine Cluster an den Rand gedrängt.
Anschließend habe ich die Namen aller auf der Website der DHD2020 als vortragend verzeichneten TeilnehmerInnen im Web-of-Science gesucht, die Ergebnisse authentifiziert und heruntergeladen. Insgesamt habe ich so 570 Artikel von 101 der Vortragenden ausfindig machen können. Dabei wurden für alle AutorInnen maximal dreißig Artikel heruntergeladen. Wenn Artikel ausgewählt werden mussten, wurden jüngeren, häufig zitierteren und ‘DH-näheren’ Artikeln Vorzug gegeben.
Die Karte wurde mit uniform manifold approximation and projection (UMAP, McInnes, Healy, and Melville (2018)) aus einer gewichteten Kombination von bibliographischen Kopplungs-Daten und Text-Daten erstellt. Die Distanz zwischen zwei Artikeln ergibt sich also einerseits aus der Cosinus-Ähnlichkeit zwischen den von ihnen zitierten Quellen, und andererseits aus der Cosinus-Ähnlichkeit der Text-Einbettungen, die ich mit dem Universal-Sentence-Encoder (Cer et al. (2018)) aus dem Text der Titel und Abstracts erstellt habe. Dabei, so ist zumindest die Idee, wird die Makro-Struktur hauptsächlich von den Zitationsdaten abgebilded, die Mikrostruktur hingegen von den Text-Daten aufgefangen. Die resultierende Karte wurde dann mit hDBSCAN (McInnes, Healy, and Astels (2017)) geclustert. Für jedes Cluster wurden die häufigsten Schlüsselwörter mit YAKE (Campos et al. (2020)) extrahiert, und die Ergebnisse wurden mit FAERUN interaktiv dargestellt. Ich habe die Methode ein wenig detaillierter in (Noichl (2019)) dargestellt, wer mehr Details erfahren möchte, kann sich aber auch gerne das assoziierte Jupyter-Notebook auf GitHub anschauen, mich auf der Konferenz ansprechen oder mir eine Nachricht schreiben.
Das kann einige Gründe haben. Erstens kann es einfach sein, das irgendwo ein Fehler passiert ist: Vielleicht habe ich einen Namen falsch übertragen, vielleicht wurde ein Name im Web of Science falsch archiviert (das ist mir mehr als einmal aufgefallen), und wurde deshalb entweder von mir nicht gefunden, oder ist über die Suchfunktion der Karte schwer zu finden (Deshalb am besten immer mehrere Schreibweisen ausprobieren!). Aber der Umfang der Karte ist unabhängig davon natürlich beschränkt. Entsprechend der Ausrichtung des Web of Science hat sie einen offensichtlichen anglophonen bias, weswegen viele wichtige, in deutschen Fachzeitschriften erschienen Artikel leider gar nicht vorkommen können. Weiterhin konnten in diesem Projekt nur in Zeitschriften publizierte Artikel berücksichtigt werden, was in einigen Fällen dazu geführt hat, das schöne DH-Online-Projekte von TeilnehmerInnen nicht vorkamen. Ich habe für mein Sample alle Vortragenden der Konferenz im Vorfeld recherchiert, und in einigen Fällen fand ich das sehr schade.
Die Karte, wie ich sie momentan veröffentlicht habe, ist eine von vielen möglichen Darstellungen der Digital Humanities. Ich hoffe, dass sie sich auf der Konferenz als anregend erweisen wird. Allgemein scheinen sich die Digital Humanities durchaus als zusammenhängendes Feld darzustellen – zum Vergleich mag es hilfreich sein, sich mit ähnlichen Methoden produzierte Karten von Philosophie und Ökonomie anzusehen. Sie trennen sich (zumindest auf Grundlage der verwendeten Daten) nicht klar von den Medien-Studien, von denen vieles seinen Weg in unser Sample gefunden hat, und welche den oberen Teil der Karte dominieren. Allgemein stehe ich unter dem Eindruck, dass sich die Trennungen, welche sich innerhalb des Samples auftun, weniger an Fachgrenzen auftun, und es eher methodische Paradigmen sind, welche das Feld strukturieren. Von dem Bereich der Medien-Studien abgesehen scheinen die Beiträge der KonferenzteilnehmerInnen sich über den größten Teil der Karte zu verteilen, was ich als Zeichen für die Breite und Vielfalt der Konferenz werten würde.
Die Karte wurde von Maximilian Noichl, von der Universität Wien, erstellt. Wer mehr von meinen Projekten sehen will, kann sich gerne meine Website anschauen.
Ich möchte mich sehr herzlich bei CLARIAH und dem DHd-Verband bedanken, welche mich bei dem Projekt mit einem Reise-Stipendium unterstützt haben.
Weiterhin bedanke ich mich bei Mareike König, die die Erstellung der Karte von Seiten der DHd2020 betreut hat, Dario Rodighiero, dem ich die Idee zu einer Konferenz-Karte verdanke, und Daniel Probst und Leland McInnes, die mir beide sehr bei der Verwendung der von ihnen geschriebenen Software geholfen haben.
Campos, Ricardo, Vítor Mangaravite, Arian Pasquali, Alípio Jorge, Célia Nunes, and Adam Jatowt. 2020. “YAKE! Keyword Extraction from Single Documents Using Multiple Local Features.” Information Sciences 509 (January): 257–89. https://doi.org/10.1016/j.ins.2019.09.013.
Cer, Daniel, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, et al. 2018. “Universal Sentence Encoder.” arXiv:1803.11175 [Cs], April. http://arxiv.org/abs/1803.11175.
McInnes, Leland, John Healy, and Steve Astels. 2017. “Hdbscan: Hierarchical Density Based Clustering.” The Journal of Open Source Software 2 (11): 205. https://doi.org/10.21105/joss.00205.
McInnes, Leland, John Healy, and James Melville. 2018. “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction.” arXiv:1802.03426 [Cs, Stat], February. http://arxiv.org/abs/1802.03426.
Noichl, Maximilian. 2019. “Modeling the Structure of Recent Philosophy.” Synthese, October. https://doi.org/10.1007/s11229-019-02390-8.
Tang, Muh-Chyun, Yun Jen Cheng, and Kuang Hua Chen. 2017. “A Longitudinal Study of Intellectual Cohesion in Digital Humanities Using Bibliometric Analyses.” Scientometrics 113 (2): 985–1008. https://doi.org/10.1007/s11192-017-2496-6.